Kyutai STT 一种专为实时应用优化的语音转文字模型

URL

type

status

date

slug

summary

Kyutai STT

一种专为实时应用优化的语音转文字（Speech-to-Text）模型。

👉 你可以在 unmute.sh 上试用

👉 查看代码：GitHub

Kyutai STT 是一种流式语音转文字模型架构，在延迟和准确性之间取得了出色的平衡，非常适合交互式应用。它支持批处理（batching），因此只需一块 GPU 就能同时处理数百个对话。

我们发布了两个模型：

kyutai/stt-1b-en_fr：低延迟模型，支持英文和法文，内置语义语音活动检测（VAD）。

kyutai/stt-2.6b-en：更大的英文专用模型，追求极致准确性。

1.实时且准确

字错误率（WER）图表

字错误率越低越好。

Kyutai STT 是一种“流式”模型，意味着它会一边接收音频一边实时转录，而不是等到整段音频输入完成后再开始处理。因此非常适用于实时应用，比如 Unmute。

它能输出格式规范、带有标点的转录结果，还支持逐词时间戳。

在准确率方面，它的表现与目前最先进的非流式模型相当，后者通常需要整段音频数据。

2.语义语音活动检测（Semantic VAD）

对于像 Unmute 这样需要语音对话的应用，我们需要判断用户是否已经说完话，以便系统可以开始回应。

常见的方法是使用一个单独的语音活动检测模型，判断用户是否正在说话，然后在检测到用户停止说话后等待一段固定时间。

但这种方法有缺陷——人们说话时经常会暂停，固定等待时间很难适配所有情况，容易误判。

Kyutai STT 的解决方案是：不仅预测文本，还预测用户是否已经说完。系统会根据说话内容和语调，智能调整等待时间。

你可以在上面的演示中体验这一功能，注意提示“End of speech detected”。

目前，语义 VAD 只在 Rust 版本的服务器中提供，其他实现尚未支持。

3.超低延迟

kyutai/stt-1b-en_fr 模型的延迟为 500 毫秒，即说出一个词后，大约 0.5 秒内就能转录出来。

kyutai/stt-2.6b-en 的延迟为 2.5 秒，换取更高的准确率。

在 Unmute 中，我们使用一种叫做 “flush trick” 的技术进一步降低响应延迟：

当语音活动检测器判断用户说完后，虽然还要等 500ms（模型的延迟），但我们会让 STT 服务器尽快处理已有音频。

服务器的处理速度约为 4 倍实时速率，因此只需 125ms（500ms ÷ 4）即可处理完现有音频。通过这种方式，我们“加速了时间”，只需等 125ms 就能确保转录完成。

4.高并发能力

Kyutai STT 非常适合生产环境：

在一块 H100 GPU 上，它可以同时处理 400 条实时音频流。

这得益于我们独创的 延迟流建模架构（delayed streams modeling），让模型本身就能高效地批量处理数据，无需额外代码支持流式处理。

5.单通道语音转文字

相比之下，将 OpenAI 的 Whisper 模型变为流式（Whisper-Streaming）则需要单独的研究项目。这种方法是反复处理最后几秒音频，并拼接结果。

虽然技术上很强大，但 Whisper-Streaming 不支持批处理，因此吞吐量远低于 Kyutai STT。如果你希望延迟更低，它还需要更频繁地重新处理音频，进一步降低效率。

6.多种实现方式

根据你的需求，我们提供不同的实现版本，详细说明见 GitHub：

PyTorch 版：适合研究和实验。如果你想在 Python 中调用模型，可选此版本。

Rust 版：适合生产环境部署。Unmute 就是使用这个版本。

我们的 Rust 服务支持通过 websocket 进行流式访问。
在 L40S GPU 上，可以以 3 倍实时速率服务 64 个并发连接。

MLX 版：适用于在 iPhone 和 Mac 上进行设备端推理。

MLX 是 Apple 的机器学习框架，支持 Apple Silicon 上的硬件加速。

7.延迟流建模（Delayed Streams Modeling）

Kyutai STT 的核心创新，是我们在 Kyutai 首创的一项技术，称为“延迟流建模”，最初在 Moshi 项目中提出。

传统的语音转文字方法，是把完整音频输入模型，然后逐步生成文本（如 Whisper 采用的编码器-解码器结构）。

而 Kyutai STT 则将音频与文本建模为“时间对齐”的两个流：音频流和文字流是并列的，而不是线性先后关系。我们会延迟文本流几个时间帧，让模型有“前瞻”能力。

训练时：模型学会同时建模音频和文字两个流。
推理时：我们实时输入音频，模型根据音频预测文本。

这种方式还有个好处是对称性：我们只要将延迟从文本流切换到音频流，再把文字作为输入固定，就可以变成一个文字转语音模型。我们只需在模型中加一点技巧，让它预测空白 token 来对齐时间轴。

我们稍后将开源文字转语音（TTS）模型，并发布论文介绍这两种模型的细节。

了解更多：

文字转语音（Text-to-Speech）

Unmute 应用

致谢

Kyutai STT、TTS 和 Unmute 项目由以下成员创建：

Alexandre Défossez、Edouard Grave、Eugene Kharitonov、Laurent Mazare、Gabriel de Marmiesse、Emmanuel Orsini、Patrick Perez、Václav Volhejn 和 Neil Zeghidour，以及 Kyutai 团队的其他支持者。

💡

对这个话题感兴趣的小伙伴，欢迎加我一起探索交流~

Kyutai STT

1.实时且准确

2.语义语音活动检测（Semantic VAD）

3.超低延迟

4.高并发能力

5.单通道语音转文字

6.多种实现方式

7.延迟流建模（Delayed Streams Modeling）

了解更多：

致谢

Rocket

AIGC创作者社区

加入智否AIFunr社区讨论分享